TimeSformer (Is Space-Time Attention All You Need for Video Understanding?) 순수 트랜스포머 기반의 시공간 비디오 이해 모델 (2021-02-09)

1. 서론 (Introduction)

1.1 비디오 이해 기술의 진화와 패러다임의 전환

컴퓨터 비전(Computer Vision) 분야에서 비디오 이해(Video Understanding)는 정지 이미지 분석을 넘어 시간이라는 4번째 차원을 다루어야 하는 복잡하고 도전적인 과제이다. 비디오 데이터는 정적인 공간 정보(Spatial Information)와 동적인 시간 정보(Temporal Information)가 결합된 형태를 띠며, 이 두 가지 정보의 상호작용을 얼마나 효과적으로 모델링하느냐가 성능을 좌우한다.1 2010년대 중반부터 2020년 직전까지, 이 분야는 3차원 합성곱 신경망(3D Convolutional Neural Networks, 3D CNN)이 지배적인 위치를 점하고 있었다. C3D, I3D(Inflated 3D ConvNet), SlowFast, X3D와 같은 모델들은 2D 이미지 분류에서 검증된 합성곱 연산을 시간 축으로 확장하여 비디오 내의 행동 인식(Action Recognition)에서 비약적인 성능 향상을 이끌어냈다.3

그러나 3D CNN은 근본적인 구조적 한계를 안고 있다. 합성곱 연산은 본질적으로 지역적(Local)인 수용 영역(Receptive Field)을 가지기 때문에, 비디오의 전체적인 문맥이나 장기적인 의존성(Long-range Dependencies)을 포착하기 위해서는 네트워크를 매우 깊게 쌓아야 한다.2 이는 필연적으로 연산 비용의 급격한 증가와 최적화의 어려움을 초래한다. 또한, 3D CNN은 “귀납적 편향(Inductive Bias)“인 평행이동 불변성(Translation Equivariance)과 지역성(Locality)을 강하게 가정하는데, 이는 데이터가 부족할 때는 학습을 돕지만, 초대규모 데이터셋에서는 모델의 표현력을 제한하는 요소로 작용할 수 있다.5

한편, 자연어 처리(NLP) 분야에서는 “Attention is All You Need” 논문 이후 트랜스포머(Transformer) 아키텍처가 사실상의 표준으로 자리 잡았으며, 이는 비전 분야로 전이되어 Vision Transformer(ViT)의 탄생을 이끌었다. ViT는 이미지를 패치 시퀀스로 취급하고 자체 어텐션(Self-Attention)만을 사용하여 CNN을 능가하는 성능을 보여주었다. 이러한 흐름 속에서 2021년 Facebook AI(현 Meta AI)가 발표한 **TimeSformer(Time-Space Transformer)**는 비디오 이해 분야에서 합성곱 연산을 완전히 배제하고(Convolution-free), 오직 트랜스포머의 어텐션 메커니즘만으로 시공간 특징을 학습하는 새로운 패러다임을 제시하였다.1

1.2 연구의 목적 및 범위

본 보고서는 TimeSformer의 아키텍처, 핵심 알고리즘, 그리고 실험적 성능을 포괄적이고 심층적으로 분석하는 것을 목적으로 한다. 특히 기존 3D CNN 기반 모델들이 가졌던 한계를 TimeSformer가 어떻게 극복했는지, 그리고 유사한 시기에 등장한 다른 비디오 트랜스포머 모델(예: ViViT)과 비교하여 어떠한 차별성을 가지는지를 중점적으로 다룬다.

보고서의 구성은 다음과 같다. 2장에서는 TimeSformer의 등장을 이해하기 위한 이론적 배경으로 3D CNN의 한계와 트랜스포머의 원리를 살펴본다. 3장에서는 TimeSformer의 핵심 기술인 ’분할된 시공간 어텐션(Divided Space-Time Attention)’을 포함한 아키텍처를 상세히 해부한다. 4장과 5장에서는 Kinetics-400, Something-Something-V2 등 주요 벤치마크 데이터셋에서의 성능 평가 결과와 3D CNN 및 타 트랜스포머 모델과의 비교 분석을 수행한다. 마지막으로 6장에서는 장기 비디오 모델링(Long-range Modeling)에서의 효율성을 검토하고, 결론을 통해 향후 비디오 이해 연구의 방향성을 제언한다.

2. 관련 연구 및 이론적 배경 (Related Work & Theoretical Background)

2.1 3D CNN 기반 비디오 모델링의 한계

비디오 행동 인식을 위한 딥러닝 모델은 크게 2D CNN 기반의 Two-Stream 네트워크와 3D CNN으로 발전해 왔다. Simonyan과 Zisserman이 제안한 Two-Stream 네트워크는 공간 스트림(Spatial Stream)과 시간 스트림(Temporal Stream, Optical Flow 사용)을 분리하여 학습시켰으나, 광학 흐름(Optical Flow) 계산에 많은 비용이 소요되는 단점이 있었다. 이후 등장한 I3D와 SlowFast는 3D 합성곱 커널을 사용하여 시공간 특징을 계층적으로 학습하는 방식을 채택했다.3

하지만 3D 합성곱은 연산량이 $O(K_t \times K_h \times K_w \times C_{in} \times C_{out})$ 으로 매우 크며(여기서 $K$ 는 커널 크기), 이는 고해상도 비디오나 긴 프레임의 영상을 처리하는 데 병목으로 작용한다. 또한, 합성곱 신경망은 레이어를 거칠 때마다 수용 영역이 서서히 넓어지는 구조이므로, 영상의 시작 부분과 끝 부분에 걸친 인과관계나 수 초 이상 떨어진 프레임 간의 연관성을 파악하는 데에는 한계가 있다.5 이러한 ’지역적 연결성(Local Connectivity)’은 비디오 내에서 시간적으로 멀리 떨어진 두 사건 사이의 관계를 모델링하는 것을 어렵게 만든다.

2.2 비전 트랜스포머(ViT)와 자체 어텐션(Self-Attention)

트랜스포머의 핵심인 자체 어텐션 메커니즘은 입력 시퀀스 내의 모든 요소가 서로를 참조하여 전역적(Global)인 문맥을 파악할 수 있게 한다. Vision Transformer(ViT)는 이미지를 $P \times P$ 크기의 패치로 자르고, 이를 1차원 시퀀스로 변환하여 트랜스포머 인코더에 입력한다. 각 패치는 쿼리(Query), 키(Key), 밸류(Value) 벡터로 변환되며, 어텐션 가중치(Attention Weight)는 다음과 같이 계산된다 7:

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V$

이 수식에서 알 수 있듯이, 어텐션은 모든 패치 쌍(Pair) 간의 유사도를 계산하므로, 이미지의 한 구석에 있는 픽셀과 반대편 구석에 있는 픽셀 간의 관계를 단 하나의 레이어에서도 포착할 수 있다. TimeSformer는 이러한 ViT의 ’전역적 연결성(Global Connectivity)’을 시간 차원까지 확장하여, 비디오 내의 모든 시공간 위치에 있는 패치들이 서로 직접 상호작용할 수 있도록 설계되었다.2

2.3 비디오 트랜스포머의 초기 접근법

TimeSformer 등장 이전에도 비디오에 어텐션을 적용하려는 시도는 있었다. 대표적으로 Non-Local Neural Networks는 3D CNN의 특징 맵 위에 자체 어텐션 블록을 삽입하여 장기 의존성을 보완하려 했다.5 그러나 이는 여전히 CNN을 백본(Backbone)으로 사용한다는 점에서 순수한 트랜스포머 모델이라 보기 어렵다. TimeSformer는 입력 단계부터 CNN을 완전히 배제하고, 순수하게 어텐션 메커니즘만으로 비디오 표현(Video Representation)을 학습한다는 점에서 기존 연구들과 뚜렷한 차별점을 가진다. 이는 모델의 학습 및 추론 속도를 높이고, 대규모 데이터셋에서의 확장성(Scalability)을 확보하는 데 결정적인 역할을 한다.2

3. TimeSformer 아키텍처 심층 분석 (In-Depth Architecture Analysis)

TimeSformer의 설계 철학은 “비전 트랜스포머(ViT)를 비디오 도메인으로 가장 효율적으로 확장하는 방법은 무엇인가?“라는 질문에서 출발한다. 단순히 ViT를 3차원으로 확장하면 연산량이 기하급수적으로 증가하기 때문에, 효율적인 어텐션 구조 설계가 필수적이다.

3.1 입력 처리 및 임베딩 (Input Processing & Embedding)

TimeSformer는 비디오 클립을 $X \in \mathbb{R}^{H \times W \times 3 \times F}$ 형태의 텐서로 받아들인다. 여기서 $H, W$ 는 프레임의 높이와 너비, $3$ 은 RGB 채널, $F$ 는 프레임 수를 의미한다.8

패치 분할 (Decomposition into Patches): 각 프레임은 $P \times P$ 크기의 패치로 분할된다. ViT와 마찬가지로 패치 크기 $P$ 는 일반적으로 16이 사용된다. 따라서 각 프레임은 $N = (H \times W) / P^2$ 개의 패치로 구성되며, 전체 비디오는 총 $N \times F$ 개의 패치 시퀀스가 된다.2
선형 임베딩 (Linear Embedding): 각 패치 벡터 $x_{(p,t)}$ (여기서 $p$ 는 공간 위치, $t$ 는 프레임 인덱스)는 학습 가능한 행렬 $E$ 를 통해 $D$ 차원의 벡터 $z^{(0)}$ 로 투영된다. 구현상으로는 stride가 $P$ 인 2D Convolution 연산을 사용하여 효율적으로 처리할 수 있다.8
분류 토큰 (Classification Token): 시퀀스의 맨 앞에 학습 가능한 특수 토큰인 클래스 토큰(CLS token)이 추가된다. 이 토큰의 최종 출력 상태가 비디오 전체의 클래스를 예측하는 데 사용된다.2
위치 임베딩 (Positional Embedding): 트랜스포머는 순서에 무지(Permutation Invariant)하므로, 각 패치의 시공간적 위치 정보를 주입해야 한다. TimeSformer는 학습 가능한 시공간 위치 임베딩 $e_{pos(p,t)}$ 를 패치 임베딩에 더한다. 실험 결과, 공간 정보와 시간 정보를 모두 포함하는 위치 임베딩을 사용할 때 가장 성능이 우수했다.8

3.2 시공간 어텐션 메커니즘의 비교 (Comparison of Space-Time Attention Schemes)

TimeSformer 연구진은 비디오의 시공간 특징을 학습하기 위한 5가지 어텐션 스키마를 고안하고 비교 분석하였다. 이는 TimeSformer 아키텍처의 핵심 기여 중 하나이다.2

3.2.1 공간 어텐션 (Spatial Attention, S)

이 방식은 시간적 정보를 무시하고, 각 프레임 내의 패치들끼리만 어텐션을 수행한다. 즉, $t$ 번째 프레임의 패치는 같은 $t$ 번째 프레임의 다른 패치들과만 상호작용한다.

장점: 연산량이 적다.
단점: 시간적 흐름이나 동작(Motion)을 전혀 학습하지 못하므로 비디오 이해 모델로서 기능이 제한적이다.

3.2.2 시간 어텐션 (Temporal Attention, T)

각 패치는 오직 자신의 공간적 위치 $(h, w)$ 와 동일한 위치에 있는 다른 프레임의 패치들과만 상호작용한다.

장점: 시간적 변화를 포착할 수 있다.
단점: 공간적 문맥을 고려하지 못해 물체의 형태나 장면의 구성을 파악하기 어렵다.

3.2.3 결합 시공간 어텐션 (Joint Space-Time Attention, ST)

모든 프레임의 모든 패치( $N \times F$ 개)가 서로 어텐션을 수행한다. 가장 이상적인 형태의 전역적 어텐션이다.

장점: 이론적으로 시공간 정보를 완벽하게 통합하여 모델링할 수 있다.
단점: 연산 복잡도가 $O((NF)^2)$ 로 폭발적으로 증가한다. 예를 들어, 프레임 수가 조금만 늘어나도 메모리 부족(OOM) 현상이 발생하여 현실적으로 학습이 불가능하다.2

3.2.4 분할된 시공간 어텐션 (Divided Space-Time Attention, T+S) - ****

Facebook AI 연구진이 제안한 가장 효율적인 방식이다. 각 트랜스포머 블록 내에서 **시간 어텐션(Temporal Attention)**과 **공간 어텐션(Spatial Attention)**을 순차적으로 수행한다.2

시간 어텐션 단계: 각 패치 $(p, t)$ 는 동일한 공간 위치 $p$ 에 있는 다른 모든 프레임의 패치들과 비교된다. 이를 통해 시간적 의존성을 학습한다.
공간 어텐션 단계: 시간 어텐션의 출력은 다시 동일한 프레임 $t$ 내의 다른 모든 패치들과 비교된다. 이를 통해 공간적 특징을 학습한다.

수학적 표현:

$z'_l = \text{MSA}_{\text{temporal}}(\text{LN}(z_{l-1})) + z_{l-1}$

$z_l = \text{MSA}_{\text{spatial}}(\text{LN}(z'_l)) + z'_l$

(여기서 MSA는 Multi-Head Self-Attention, LN은 Layer Normalization을 의미한다.)

효율성 분석: 이 방식의 연산 복잡도는 $O(N F^2 + F N^2)$ 이다. 이는 결합 어텐션의 $O(N^2 F^2)$ 에 비해 획기적으로 낮다. 이러한 효율성 덕분에 TimeSformer는 더 큰 해상도와 더 긴 비디오 프레임을 처리할 수 있게 되었다.2

3.2.5 희소 로컬-글로벌 어텐션 (Sparse Local Global, L+G)

전체 패치 중 일부만을 선택하여 로컬 어텐션과 글로벌 어텐션을 수행하는 방식이나, 분할된 시공간 어텐션에 비해 성능이나 효율성 면에서 이점을 보이지 못했다.

3.3 아키텍처의 확장성 및 변형 (Scalability & Variants)

TimeSformer는 입력 비디오의 길이나 해상도에 따라 유연하게 확장될 수 있다.

TimeSformer (Base): 8 프레임, $224 \times 224$ 해상도.
TimeSformer-HR (High Resolution): 16 프레임, $448 \times 448$ 해상도. 공간적 디테일이 중요한 작업에 유리하다.
TimeSformer-L (Long): 96 프레임, $224 \times 224$ 해상도. 장기적인 시간 의존성을 파악해야 하는 작업에 적합하다.5

이러한 모델 변형들은 동일한 ‘분할된 시공간 어텐션’ 구조를 공유하되, 파라미터 수와 연산량(FLOPs)을 조절하여 다양한 컴퓨팅 환경과 데이터 특성에 대응한다.

4. 실험 설정 및 구현 세부사항 (Experimental Setup & Implementation)

4.1 데이터셋 (Datasets)

TimeSformer의 성능 검증을 위해 다음과 같은 대표적인 비디오 행동 인식 데이터셋이 사용되었다.

Kinetics-400 (K400) & Kinetics-600 (K600): YouTube 비디오에서 수집된 10초 내외의 클립으로 구성되며, 각각 400개, 600개의 행동 클래스를 포함한다. 주로 동작의 모양(Appearance)과 움직임(Motion)이 모두 중요한 데이터셋이다.13
Something-Something-V2 (SSv2): 물체와의 상호작용을 다루는 데이터셋으로, “무언가를 왼쪽에서 오른쪽으로 밀기“와 같이 시간적 순서와 방향성이 핵심이다. 배경보다는 동작 자체의 시간적 패턴이 중요하다.10
HowTo100M: 1억 3천만 개의 비디오 클립과 텍스트 설명이 포함된 초대규모 데이터셋으로, 장기 비디오 모델링(Long-term modeling) 능력을 평가하는 데 사용된다.5

4.2 학습 세부사항 (Training Details)

TimeSformer는 기본적으로 ImageNet 데이터셋(ImageNet-1K 또는 ImageNet-21K)으로 사전 학습된(Pre-trained) ViT 모델의 가중치를 사용하여 초기화된다. 이는 비디오 데이터만으로 트랜스포머의 막대한 파라미터를 처음부터(From Scratch) 학습시키는 것이 매우 어렵고 비효율적이기 때문이다.2

최적화: SGD(Stochastic Gradient Descent)와 Momentum을 사용하며, 학습률 스케줄링(Learning Rate Scheduling)을 적용한다.
데이터 증강 (Augmentation): 과적합을 방지하기 위해 RandAugment, Mixup, CutMix 등의 최신 데이터 증강 기법들이 적극적으로 활용된다.14
추론 (Inference): 일반적으로 비디오 하나당 1개의 시간적 클립(Temporal Clip)과 3개의 공간적 크롭(Spatial Crop)을 사용하여 예측을 수행한다(1-clip evaluation). 이는 기존 3D CNN들이 10개의 클립을 사용하는 것(10-clip evaluation)에 비해 추론 속도를 높이는 요인이 된다.2

4.3 구현 코드 분석 (Code Implementation Insights)

공개된 PyTorch 구현 코드를 분석해보면, TimeSformer의 패치 임베딩은 nn.Conv2d를 사용하여 구현되어 있음을 알 수 있다.

Python

# 코드 예시 (개념적 재구성)
self.proj = nn.Conv2d(in_channels, embed_dim, kernel_size=patch_size, stride=patch_size)

이는 이미지를 패치로 자르고 선형 변환하는 과정을 합성곱 연산 한 번으로 처리하여 효율성을 높인 것이다. 또한, ’분할된 어텐션’은 einops 라이브러리 등을 활용하여 텐서의 차원을 (Batch * Time, Space, Dim) 또는 (Batch * Space, Time, Dim)으로 재배열(Reshape/Permute)한 후 표준 MSA를 적용하는 방식으로 구현된다.8

5. 성능 평가 및 비교 분석 (Performance Evaluation & Comparative Analysis)

TimeSformer의 성능은 기존의 최신(SOTA) 모델들과 비교하여 탁월한 경쟁력을 보여준다. 특히 연산 효율성(Efficiency) 측면에서의 우위가 두드러진다.

5.1 3D CNN 모델과의 비교 (Comparison with 3D CNNs)

TimeSformer는 SlowFast, I3D와 같은 대표적인 3D CNN 모델들과 비교하여 높은 정확도와 낮은 연산 비용을 달성하였다.

[표 1] Kinetics-400 데이터셋에서의 성능 및 효율성 비교 (참조: 4)

모델 (Model)	사전학습 (Pre-train)	Top-1 정확도 (%)	파라미터 수 (M)	추론 연산량 (TFLOPs)
I3D R-50	ImageNet-1K	73.5	28.0	1.11
SlowFast R-101	ImageNet-1K	79.8	53.7	1.97
X3D-XL	-	79.1	11.0	0.05
TimeSformer	ImageNet-1K	78.0	121.4	0.59
TimeSformer-L	ImageNet-21K	80.7	121.4	2.38

분석: TimeSformer-L은 SlowFast R-101보다 높은 80.7%의 정확도를 기록하면서도, 학습 시간은 3배 이상 단축되었다.4
효율성 역설: TimeSformer는 파라미터 수가 121.4M로 매우 많지만, 추론 시의 FLOPs는 오히려 낮거나 경쟁력이 있다. 이는 트랜스포머 구조가 파라미터 접근(Memory Access)은 많아도, 3D 합성곱처럼 중복적인 연산을 수행하지 않기 때문이다.4 특히 기본 TimeSformer 모델은 0.59 TFLOPs로 I3D나 SlowFast보다 월등히 가벼운 연산량을 자랑한다.

5.2 타 비디오 트랜스포머와의 비교 (Comparison with ViViT & Others)

TimeSformer와 유사한 시기에 발표된 ViViT(Video Vision Transformer) 역시 순수 트랜스포머 기반 모델이다. 두 모델은 시공간 어텐션을 분해한다는 공통점이 있지만, 구체적인 방식에서 차이가 있다.

구조적 차이: ViViT는 주로 공간 트랜스포머 인코더를 통과한 후 시간 트랜스포머 인코더를 통과시키는 “Factorised Encoder” 방식을 사용하는 반면, TimeSformer는 각 블록 내부에서 시간과 공간 어텐션을 교차하는 방식을 택한다.
성능 비교: Kinetics-400에서 ViViT-L은 81.3%의 정확도로 TimeSformer-L(80.7%)보다 소폭 높지만, 연산량(FLOPs) 측면에서는 TimeSformer가 더 효율적인 경향을 보인다.16 특히 TimeSformer는 별도의 뷰(View) 앙상블 없이도 높은 성능을 내는 반면, ViViT는 여러 뷰를 사용하여 성능을 끌어올리는 경우가 많다.

5.3 Something-Something-V2 (SSv2) 성능 분석

SSv2 데이터셋은 TimeSformer에게 도전적인 과제이다. 이 데이터셋은 배경 정보보다는 동작의 순서와 방향이 중요하기 때문이다.

TimeSformer-HR은 SSv2에서 **62.5%**의 정확도를 기록하였다.16 이는 당시 SOTA급 성능이지만, Motionformer와 같이 동작(Motion) 정보를 명시적으로 모델링하는 트랜스포머 모델(68.1%)이나 일부 3D CNN 모델에 비해서는 다소 낮은 수치이다.16
원인 분석: 연구진은 SSv2와 같이 복잡한 시간적 패턴을 학습하기 위해서는 TimeSformer가 더 많은 데이터(학습 비디오 수)를 필요로 한다고 분석했다. K400에서는 적은 데이터로도 성능이 빠르게 올라가지만, SSv2에서는 데이터 양이 충분해야(75%~100%) 비로소 3D CNN을 앞지르기 시작한다.4 또한, 트랜스포머가 공간 정보에 편향(Bias)되어 있어 시간적 순서가 뒤섞인 비디오(Shuffled Video)에 대해서도 높은 확신을 가지고 예측하는 경향이 있다는 지적도 있다.18

6. 장기 비디오 모델링과 확장성 (Long-Range Modeling & Scalability)

TimeSformer의 가장 독보적인 장점 중 하나는 긴 비디오를 처리할 수 있는 능력이다. 기존 3D CNN은 메모리 문제로 인해 8~16 프레임 정도의 짧은 클립을 처리하는 데 그쳤으나, TimeSformer는 ‘분할된 어텐션’ 덕분에 최대 96 프레임(수 초에서 1분 이상)의 비디오를 한 번에 입력받아 처리할 수 있다.1

6.1 HowTo100M 장기 과제 성능

HowTo100M 데이터셋을 활용한 장기 작업 분류(Long-term Task Classification) 실험에서 TimeSformer는 그 진가를 발휘한다.

성능: TimeSformer는 96 프레임 입력 설정에서 기존 3D CNN 모델들을 큰 폭으로 따돌렸다. 특히, 동일한 비디오 커버리지(Single clip coverage) 조건에서 SlowFast 변형 모델들보다 8~11% 더 높은 정확도를 기록하였다.4
의미: 이는 TimeSformer가 단순히 짧은 순간의 동작(예: “점프하기”)뿐만 아니라, 요리나 조립과 같이 긴 시간에 걸쳐 일어나는 복합적인 활동(Complex Activity)을 이해하는 데 매우 적합함을 시사한다. 긴 문맥을 유지하면서도 연산 효율성을 잃지 않는 것은 TimeSformer가 가진 강력한 무기이다.

6.2 확장성 (Scalability)

TimeSformer는 고해상도 이미지 처리에서도 강점을 보인다. TimeSformer-HR 모델은 $448 \times 448$ 해상도를 처리하면서도 메모리 효율성을 유지한다. 이는 3D CNN이 해상도가 커질수록 연산량이 3제곱으로 증가하는 것과 대조적이다. 분할된 어텐션 메커니즘은 공간 해상도의 증가가 시간 어텐션 비용에 영향을 거의 미치지 않고, 프레임 수의 증가가 공간 어텐션 비용에 영향을 미치지 않도록 설계되어 있어 탁월한 확장성을 제공한다.6

7. 정성적 분석 및 시각화 (Qualitative Analysis & Visualization)

TimeSformer가 학습한 특징을 시각화(Visualization)해 보면, 모델이 비디오를 어떻게 이해하고 있는지에 대한 통찰을 얻을 수 있다.

7.1 어텐션 맵 시각화 (Attention Maps)

학습된 모델의 어텐션 맵을 분석해 보면, TimeSformer는 비디오 내에서 행동과 관련된 핵심적인 영역에 집중하는 법을 학습한다. 예를 들어, “농구공 던지기” 영상에서 모델은 사람의 손과 농구공, 그리고 골대 영역에 높은 어텐션 가중치를 부여한다. 특히 공간 어텐션은 물체의 위치를, 시간 어텐션은 물체의 움직임 경로를 추적하는 경향을 보인다.2

7.2 특징 임베딩의 분리성 (Feature Separability)

t-SNE를 사용하여 TimeSformer의 최종 특징 벡터를 2차원으로 시각화하면, 동일한 행동 클래스에 속하는 비디오들이 공간상에서 뚜렷하게 군집(Cluster)을 형성하는 것을 확인할 수 있다. 논문에 따르면, ’분할된 시공간 어텐션’을 사용한 TimeSformer는 ’공간 전용 어텐션’이나 일반적인 ViT보다 의미적으로 더 잘 분리되는(Semantically more separable) 특징 공간을 학습한다.19

7.3 위치 임베딩의 역할

위치 임베딩 제거 실험(Ablation Study) 결과, 위치 정보가 없으면 모델의 성능이 급격히 하락한다. 특히 K400보다 SSv2에서 성능 하락폭이 더 큰데, 이는 SSv2가 시간적 순서(위치)에 더 민감하기 때문이다. TimeSformer는 시공간 위치 임베딩을 통해 패치들의 순서를 명확히 인지하고, 이를 바탕으로 행동의 전후 관계를 파악한다.10

8. 결론 및 향후 연구 방향 (Conclusion & Future Directions)

8.1 결론

TimeSformer는 비디오 이해 분야의 패러다임을 3D CNN에서 트랜스포머로 전환시킨 기념비적인 연구이다. 본 보고서의 분석을 통해 도출된 핵심 결론은 다음과 같다.

합성곱 없는 비디오 이해의 가능성: TimeSformer는 합성곱 연산 없이 오직 자체 어텐션만으로도 최신 3D CNN 모델들을 능가하거나 대등한 성능을 낼 수 있음을 입증하였다.
효율적인 아키텍처: ‘분할된 시공간 어텐션(Divided Space-Time Attention)’ 메커니즘은 전역적인 시공간 문맥을 학습하면서도 연산 복잡도를 획기적으로 낮추는 최적의 설계를 보여주었다. 이는 학습 속도 향상과 추론 비용 절감으로 이어졌다.
장기 모델링의 강자: 긴 비디오 프레임을 처리할 수 있는 능력은 TimeSformer가 단순한 동작 인식을 넘어 복잡한 비디오 이벤트 이해로 나아갈 수 있는 기반을 마련해 주었다.

8.2 한계점 및 향후 과제

TimeSformer의 성공에도 불구하고 몇 가지 한계점과 향후 연구 과제가 남아있다.

데이터 의존성: 트랜스포머 기반 모델인 만큼 대규모 사전 학습 데이터(ImageNet-21K 등)에 대한 의존도가 높다. 데이터가 적은 환경에서도 잘 작동하도록 하는 연구가 필요하다.
미세 시간 패턴: SSv2와 같은 데이터셋에서 동작의 방향이나 미세한 시간적 변화를 포착하는 능력은 아직 3D CNN이나 특화된 모션 모델에 비해 개선의 여지가 있다.
멀티모달 확장: 비디오는 오디오, 텍스트와 밀접하게 연관되어 있다. TimeSformer를 백본으로 하여 비디오-오디오-텍스트를 통합적으로 이해하는 멀티모달 모델(예: VideoBERT의 후속 연구)로의 확장이 활발히 진행될 것으로 예상된다.20
자기주도 학습 (Self-Supervised Learning): 레이블이 없는 방대한 비디오 데이터를 활용하기 위해, TimeSformer 구조에 Masked Autoencoder(MAE)와 같은 자기주도 학습 기법을 적용하는 연구(VideoMAE)가 TimeSformer 이후 비디오 이해 분야의 주요 트렌드로 부상하고 있다.

결론적으로, TimeSformer는 학술적으로나 실용적으로나 비디오 AI 기술의 진보를 이끈 중요한 모델이며, 향후 등장할 더욱 강력한 비디오 이해 모델들의 기초가 되는 베이스라인으로서 그 가치가 지속될 것이다.

참고 자료

arxiv.org, 12월 13, 2025에 액세스, https://arxiv.org/abs/2102.05095
Is Space-Time Attention All You Need for Video Understanding?, 12월 13, 2025에 액세스, http://proceedings.mlr.press/v139/bertasius21a/bertasius21a.pdf
Is Space-Time Attention All You Need for Video Understanding?, 12월 13, 2025에 액세스, https://www.semanticscholar.org/paper/Is-Space-Time-Attention-All-You-Need-for-Video-Bertasius-Wang/fa08b41ccdfc5d8771adfbc34c176fa237d4646c
Is Space-Time Attention All You Need for Video Understanding?, 12월 13, 2025에 액세스, https://liner.com/review/is-spacetime-attention-all-you-need-for-video-understanding
TimeSFormer: Efficient and Effective Video Understanding Without …, 12월 13, 2025에 액세스, https://medium.com/@kdk199604/timesformer-efficient-and-effective-video-understanding-without-convolutions-249ea6316851
Reimagining Video Understanding with TimeSformer: A Dive into …, 12월 13, 2025에 액세스, https://medium.com/@juhyun62015/reimagining-video-understanding-with-timesformer-a-dive-into-space-time-attention-5f8244d2349d
Where are the parameters in a vision transformer? - Elijah Cole, 12월 13, 2025에 액세스, https://elijahcole.me/blog/2024-09-01-vit-params.html
TimeSformer: Is Space-Time Attention All You Need for Video …, 12월 13, 2025에 액세스, https://medium.com/lunit/timesformer-is-space-time-attention-all-you-need-for-video-understanding-5668e84162f4
timesformer.py - open-mmlab/mmaction2 - GitHub, 12월 13, 2025에 액세스, https://github.com/open-mmlab/mmaction2/blob/master/mmaction/models/backbones/timesformer.py
TimeSformer: Transformer that captures moving images beyond …, 12월 13, 2025에 액세스, https://ai-scholar.tech/en/articles/image-recognition/Transformer
TimeSformer: State-Of-The-Art for video classification - Medium, 12월 13, 2025에 액세스, https://medium.com/@parthchokhra/timesformer-state-of-the-art-for-video-classification-cb1189467b55
Transformers in Video Processing (Part 1) - Hugging Face, 12월 13, 2025에 액세스, https://huggingface.co/learn/computer-vision-course/unit7/video-processing/transformers-based-models
facebookresearch/TimeSformer - GitHub, 12월 13, 2025에 액세스, https://github.com/facebookresearch/TimeSformer
Space-time Mixing Attention for Video Transformer, 12월 13, 2025에 액세스, https://proceedings.neurips.cc/paper/2021/file/a34bacf839b923770b2c360eefa26748-Paper.pdf
Lots of self-supervised learning, SpeechBrain, TimeSformer and …, 12월 13, 2025에 액세스, https://www.youtube.com/watch?v=eZBCea0_SFk
Motionformer, 12월 13, 2025에 액세스, https://facebookresearch.github.io/Motionformer/
Cross-Stage Transformer for Video Learning - OpenReview, 12월 13, 2025에 액세스, https://openreview.net/forum?id=Wsif-S7ggTM
Time Is MattEr: Temporal Self-supervision for Video Transformers, 12월 13, 2025에 액세스, https://proceedings.mlr.press/v162/yun22a/yun22a.pdf
Transformers in computer vision: ViT architectures, tips, tricks and …, 12월 13, 2025에 액세스, https://theaisummer.com/transformers-computer-vision/
Is Space-Time Attention All You Need for Video Understanding?, 12월 13, 2025에 액세스, https://www.researchgate.net/publication/349195723_Is_Space-Time_Attention_All_You_Need_for_Video_Understanding